Artificial Intelligence in Ophthalmology: A Comparative Analysis of GPT-3.5, GPT-4, and Human Expertise in Answering StatPearls Questions

نویسندگان

چکیده

Importance Chat Generative Pre-Trained Transformer (ChatGPT) has shown promising performance in various fields, including medicine, business, and law, but its accuracy specialty-specific medical questions, particularly ophthalmology, is still uncertain. Purpose This study evaluates the of two ChatGPT models (GPT-3.5 GPT-4) human professionals answering ophthalmology questions from StatPearls question bank, assessing their outcomes, providing insights into integration artificial intelligence (AI) technology ophthalmology. Methods ChatGPT's was evaluated using 467 bank. These were stratified 11 subcategories, four difficulty levels, three generalized anatomical categories. The answer GPT-3.5, GPT-4, participants assessed. Statistical analysis conducted via Kolmogorov-Smirnov test for normality, one-way variance (ANOVA) statistical significance GPT-3 versus GPT-4 performance, repeated unpaired two-sample t-tests to compare means groups. Results outperformed both GPT-3.5 on except "Lens Cataract" category. differences statistically significant overall, with achieving higher (73.2%) compared (55.5%, p-value < 0.001) humans (58.3%, 0.001). There variations across levels (rated one four), consistently performed better than level-two, -three, -four questions. On level-four difficulty, significantly exceeded that (p = 0.008). Conclusion study's findings demonstrate GPT-4's improvements over Our results highlight potential advanced conversational AI systems be utilized as important tools education practice medicine.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

GPT Meets PSR

We present a case study in confronting the GPT generalpurpose planner with the challenging power supply restoration (PSR) benchmark for contingent planning. PSR is derived from a real-world problem, and the dif£culty of modeling and solving it contrasts with that of the purely arti£cial benchmarks commonly used in the literature. This confrontation leads us to improve general techniques for con...

متن کامل

a contrastive analysis of concord and head parameter in english and azerbaijani

این پایان نامه به بررسی و مقایسه دو موضوع مطابقه میان فعل و فاعل (از نظر شخص و مشار) و هسته عبارت در دو زبان انگلیسی و آذربایجانی می پردازد. اول رابطه دستوری مطابقه مورد بررسی قرار می گیرد. مطابقه به این معناست که فعل مفرد به همراه فاعل مفرد و فعل جمع به همراه فاعل جمع می آید. در انگلیسی تمام افعال، بجز فعل بودن (to be) از نظر شمار با فاعلشان فقط در سوم شخص مفرد و در زمان حال مطابقت نشان میدهند...

15 صفحه اول

a comparative study of the relationship between self-, peer-, and teacher-assessments in productive skills

تمایل به ارزیابی جایگزین و تعویض آن با آزمون سنتی مداد و کاغذ در سالهای اخیر افزایش یافته است. اکثر زبان آموزان در کلاس های زبان از نمره نهایی که استاد تعیین میکند ناراضی اند. این تحقیق جهت بررسی ارزیابی در کلاس های زبان انگلیسی به هدف رضایتمندی زبان آموزان از نمره هایشان انجام گرفته است که در آن نمرات ارائه شده توسط سه گروه ارزیاب (ارزیابی خود دانشجو، همسالان واستاد) در مهارت های تولید (تکل...

15 صفحه اول

the stady and analysis of rice agroclimatology in lenjan

the west of esfahan province, iran, is one of the most important agricultural areas throughout the country due to the climate variability and life-giving water of zayanderood river. rice is one of the major and economic crops in this area. the most important climatic elements in agricultural activities which should be considered include temperature, relative humidity, precipitation and wind. so...

15 صفحه اول

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Cureus

سال: 2023

ISSN: ['2168-8184']

DOI: https://doi.org/10.7759/cureus.40822